【レポート】アマゾン ウェブ サービス(AWS)を活用したがんゲノム解析基盤 #CUS-20 #AWSSummit
こんにちは。AWS事業本部のKyoです。
本エントリはAWS Summit Online Japan 2021 にて行われた動画セッション「アマゾン ウェブ サービス(AWS)を活用したがんゲノム解析基盤」のレポートです。
前半では生物学的な解説とともに、なぜがんゲノム研究にクラウドが必要なのか、後半は実際にクラウドを活用した研究への取り組みについて解説されています。研究にAWSを利用したいという方には有益な情報となるのではないでしょうか。
セッション概要
"ゲノム研究・医療の動向、クラウドを活用したゲノム解析の様々な事例や取り組みを紹介!!"
ゲノム情報の分析により個人レベルで最適な治療を選択するプレシジョン・メディシンが本格的に始まりつつあります。こうした状況で、加速度的に蓄積するゲノムデータを効率的に解析・共有するために、クラウドの利用が不可欠になりつつあります。本セッションではまず、ゲノム研究・医療の動向、クラウドを活用したゲノム解析の様々な事例を紹介します。次に、私たちが開発しているクラウド上でのがんゲノム解析パイプライン、AWSに配備されているパブリックゲノムデータを使った知識探索基盤などについて紹介させていただきます。
スピーカー
国立がん研究センター 研究所 ゲノム解析基盤開発分野 分野長 白石 友一 氏
セッション動画
アマゾン ウェブ サービス(AWS)を活用したがんゲノム解析基盤
セッションレポート
アジェンダ
- なぜ「がん研究」でクラウドが必要なのか?
- クラウドを使ったがんゲノム研究の取組
がんとゲノム、そしてデジタル化
- ゲノムは細胞の設計図
- ACGTから成る文字列データ
- ヒトでは約30億文字
- 0.1%の違いが個人の差
- 外見や病気のなりやすさといった形質につながる
- がんはゲノムの病気
- 化学物質や放射線によって文字列の変化(変異)が発生
- 変異の蓄積によって細胞ががん化
- ゲノムはデジタルな情報になった
- ゲノムを網羅的に読むことでどのような変異ががんに関係するか理解する
- 概念自体は30年以上前に提唱されていたが、計測技術が未発達で非現実的だった
- 現代ではシーケンサーと呼ばれる装置を利用することで数十億〜数百億行のテキストファイルとしてゲノム情報を得ることができる
- ゲノムを網羅的に読むことでどのような変異ががんに関係するか理解する
- 変異の見つけ方
- 人間の代表のゲノム(リファレンスゲノム)と比較
- がんに関しては、がん部と非がん部の比較
- 解析には16vCPU, 64GBメモリのコンピュータで1-2日必要
- データ量は50 - 200GB /サンプル
- 人間の代表のゲノム(リファレンスゲノム)と比較
- ゲノムデータがどんどん大きくなる
- 10年前は研究の世界だけで使われていた
- 5年前は国際コンソーシアムの開始など
- 現代は国家規模のプロジェクトやメガファーマが参入
- がんゲノム医療で患者さんごとに違う薬を投与
- クラウドを通じた解析モデル “bring the analysis to the data”
- データをダウンロードする必要がなくなり、誰もが大規模ゲノムデータにアクセス可能に
- ゲノム分析の民主化
- Genome Cloud Platform
遺伝性腫瘍疑いの患者の全ゲノム解析 プロジェクト
概要
- AMEDのプロジェクト
- 遺伝性腫瘍疑いの患者さんの全ゲノム解析
- 時期: 2020年4月から本格開始
- 検体規模: 約3,000 人
- 目的
- 未知のがん遺伝子の発見
- 新しいタイプの変異の発見
- 遺伝カウンセリングの実施
- 遺伝子異常に合わせた最適な治療
達成しなければならないこと
- 短期でのインフラ構築・運用(単年度予算)
- コスト削減
- セキュリティ・ガイドライン遵守
解析の概要と環境
体制の概要
- がん研究センターから検体をシーケンス受託企業へ
- シーケンス受託企業はDirect Connectを経由してシーケンスデータを(シーケンス受託企業所有の)S3へ納品
- そこからクロスアカウントレプリケーションしてがん研究センターのS3へ
- がん研究センターではプライベートサブネットで解析し、S3で解析結果を戻す
- 解析結果はがん研究センターのオンプレにダウンロードして活用
定型解析パイプライン
- 解析パイプライン実行基盤環境
- 入力となるシーケンスデータが80GB/サンプル
- まずアライメントを行うのに16 CPU, 64GiBで12時間程度必要
- そこから様々な種類の解析へ(変異検出、構造異常検出、クオリティチェック)
- 必要なCPU、メモリ、処理時間がそれぞれ異なる
最適化の方法
- バッチジョブ
- ステップごとにインスタンスサイズを変える
- スポットインスタンスの利用
フレームワーク: On-Demand Extraction Transformation Load (ETL) approach
- ストレージ(S3)にはじまりストレージに終わる
- 解析するときだけインスタンスが稼働し、解析が終了したら除去される
- Dockerを利用した再現性のある環境
AWSに特化したbatch job engine (ecsub)
上記のフレームワークをもとにECSをラップする形で白石先生グループで開発
- サーバーレス化し、管理コスト削減
- スポットインスタンスの活用
- バッチジョブを連続的に実施
- ガイドライン対応のため閉域での実行
- Slackへの通知で運用性向上
セキュリティへの取り組み
要求
- 利用者、扱うデータの明確化
- 関連ガイドラインへの適合
- 3省2ガイドライン
- がん研究センターセキュリティガイドライン
- テレワークに対応した運用環境の整備
- 緊急事態宣言対応のため
実装
セキュリティレベルを二段階に分離(VPCおよびS3バケットの単位で分離)
- 解析環境(がん研究センター執務室からAWS Client VPNで接続)
- ゲノムデータが見られる
- 解析結果のダウンロード
- 解析環境整備
- エラー対応
- ゲノムデータが見られる
- 解析管理環境 (テレワーク環境からAmazon WorkSpacesに接続)
- ゲノムデータは見られない
- 解析の実行
- ログの確認
- ゲノムデータは見られない
タイムライン
約7.5ヶ月で合計2,823サンプルを解析。解析を行いながら環境を最適化することで解析スピードが加速
- 設計/検証 2.5ヶ月
- 構築: 1ヶ月
- 解析: 4ヶ月
クラウドを活用したゲノム解析
- 医療施設 → シーケンス拠点 → S3を介してAWS環境で解析という流れ
- S3にデータがあることで、ポータルサイトや患者レポートといった別のサービスにも活用しやすい
Open Data on AWSの活用
- AWS上にあるゲノムデータを活用して疾患関連ゲノム変異のスクリーニング
- 特にトランスクリプトームへ大きな影響を与えるゲノム変異
- NIH NCBI Sequence Read Archive (SRA) on AWS
- 約50-60万のRNA-Seqデータが公開されている
- 大量RNA-Seq解析のためのプラットフォームを構築中(ecsubと似ている)
- マニュアル操作なしでジョブ投入
- ジョブ履歴を簡易DBに蓄積、検索可能に
- 1検体 10-20円ほど
まとめ
- 生物実験が中心であったゲノム解析がソフトウェア開発へ軸を移し、現在ではデータの大規模化によりインフラが重要になっている
- あらゆる段階の自動化でゲノム解析による医療・知識獲得を加速化する
- アカデミアの研究者だけではなく、産業界、様々な分野のエンジニアの協力が必要
所感
まとめにもありましたが、生物実験の範疇であったゲノム解析がテクノロジーと融合し、クラウドがフル活用されていく様子がとってもエキサイティングでした。
データが大規模化していくことに加えて、アカデミアでは人的リソースが慢性的に不足しがちだったり、予算も状況によって大きく変動するので、管理コストが低く、必要なリソースを必要なだけ準備できるクラウドとの相性はとても良いと感じます(特に小規模な研究室では効果が大きいと思います)。
アーキテクチャに関しては、S3の存在感を感じることができました。S3は数あるAWSの中でも特に重要な役割を担っており、細やかなアクセス制御や他サービスとの連携が強力でコラボレーションや解析の要になります。コンテナやサーバーレスを使った解析基盤に関しても効率面・セキュリティ面ともに非常に参考になったので近い分野の方はぜひセッションを視聴するかecsubのページを訪れてみてください。
関連エントリ
AWSはサービスを組み合わせたソリューションを提供しており、その中にはヘルスケア・ライフサイエンス関連のソリューションもあります。DevlopersIOにはそれらについてのやってみたやゲノミクス関連のエントリもありますのでもしよろしければご覧ください。